118 research outputs found

    Transfer Learning for OCRopus Model Training on Early Printed Books

    Full text link
    A method is presented that significantly reduces the character error rates for OCR text obtained from OCRopus models trained on early printed books when only small amounts of diplomatic transcriptions are available. This is achieved by building from already existing models during training instead of starting from scratch. To overcome the discrepancies between the set of characters of the pretrained model and the additional ground truth the OCRopus code is adapted to allow for alphabet expansion or reduction. The character set is now capable of flexibly adding and deleting characters from the pretrained alphabet when an existing model is loaded. For our experiments we use a self-trained mixed model on early Latin prints and the two standard OCRopus models on modern English and German Fraktur texts. The evaluation on seven early printed books showed that training from the Latin mixed model reduces the average amount of errors by 43% and 26%, respectively compared to training from scratch with 60 and 150 lines of ground truth, respectively. Furthermore, it is shown that even building from mixed models trained on data unrelated to the newly added training and test data can lead to significantly improved recognition results

    State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines

    Full text link
    In this paper we evaluate Optical Character Recognition (OCR) of 19th century Fraktur scripts without book-specific training using mixed models, i.e. models trained to recognize a variety of fonts and typesets from previously unseen sources. We describe the training process leading to strong mixed OCR models and compare them to freely available models of the popular open source engines OCRopus and Tesseract as well as the commercial state of the art system ABBYY. For evaluation, we use a varied collection of unseen data from books, journals, and a dictionary from the 19th century. The experiments show that training mixed models with real data is superior to training with synthetic data and that the novel OCR engine Calamari outperforms the other engines considerably, on average reducing ABBYYs character error rate (CER) by over 70%, resulting in an average CER below 1%.Comment: Submitted to DHd 2019 (https://dhd2019.org/) which demands a... creative... submission format. Consequently, some captions might look weird and some links aren't clickable. Extended version with more technical details and some fixes to follo

    Cadre géologique et environnemental

    Get PDF
    Pfyngut: Geologischer Rahmen und natürliches Umfeld Dieses Kapitel ist der Geologie der Region gewidmet, unter besonderer Beachtung der Schichtabfolge von Pfyngut. Die Fundstelle befindet sich im alpinen Raum, am Oberlauf der Rhone, zwischen Siders und Leuk. Sie liegt auf einem Schuttkegel, der sich am Fusse des Illgrabens gebildet hat, einer tief in die penninischen Decken eingeschnittenen Schlucht mit carbonatreichen Gesteinen und Quarziten. Die untersuchten Schichtabfolgen liegen auf der linken Seite des Rhonetals, rund 20 m über der Überschwemmungsebene, und bestehen hauptsächlich aus Wildbachablagerungen und durch Oberflächenwasser verlagerten Feinsedimenten, zwischen denen sich fossile Böden erhalten haben. Diese Ablagerungen erreichen eine Gesamtmächtigkeit von maximal 2,50 m und liegen über den pedogen verwitterten Schottern (cambisol) des Illgrabenfächers. Die Sequenz beginnt an der Basis mit einer Abfolge fossiler Böden. Mikromorphologische Untersuchungen, in Kombination mit den Ergebnissen der Pollenanalysen und Makrorestuntersuchungen belegen, dass der menschliche Einfluss ab der frühen Eisenzeit das lokale Landschaftsbild zu verändern begann : nach einer Rodungsphase, setzte Erosion ein, auf die ackerbauliche Nutzung folgt. Pollen von Weizen und Ruderalplanzen sprechen für eine ausgedehnte Bewirtschaftung der Gegend ab der späten Eisenzeit. Ein weiterer starker menschlicher Eingriff stellt der Bau einer grossen Fernverkehrsstrasse in frührömischer Zeit dar. Sie wird mehfach aufwändig erneuert und nach Aufgabe von feinkörnigen Überflutungssedimenten überdeckt. An deren Oberfläche bildet sich wiederum ein humöser Oberboden, der Pflugspuren eines ausgedehnten Ackerbaus aufweist und ins Mittelalter datiert. Nach dem 12. Jh. wird die gesamte Westflanke des Kegels wiederholt von Bachgeschiebe und Murgangsedimenten überdeckt, was auf eine Destabilisierung der Berghangs hinweist. Der oberste Bereich der Schichtabfolge besteht hauptsächlich aus feinen Ablagerungen, wie sie bei der Bewässerung der Wiesen mittels Suonen entstehen. Darüber folgt der Humushorizont der heutigen Bodenoberfläche. Die Untersuchung der Pflanzenreste erbrachte ausschliesslich den Nachweis von Wildpflanzen, die wohl alle aus der nahen Umgebung stammen. Sie zeigt zudem, dass die Waldföhre bereits in der Eisenzeit die dominante Baumart im Gebiete des Pfynwalds war. Die Landschaft war relativ offen und besass Wiesen- und Weideflächen. Das Fehlen von Kulturpflanzen, wie auch von typischen Ackerunkräutern lässt den Schluss zu, dass in dieser frühen Zeit kaum Ackerstandorte in unmittelbarer Nähe des Fundorts lagen, und mit den untersuchten Proben auch keine Siedlungsbereiche erfasst worden sind, wo Nahrungsmittel gelagert oder verarbeitet wurden
    • …
    corecore